import scrapy


class BaiduSpider(scrapy.Spider):
    name = 'baidu'  # 爬虫的名字
    allowed_domains = ['baidu.com']  # 允许爬取的域名
    start_urls = ['http://news.baidu.com/']  # 启动时最开始爬取的URL

    def parse(self, response):
        # 有什么用？
        # 1. 作用很大，这个函数是在Scrapy得到URL响应的数据之后，会自动调用（回调）
        # 2. 在调用的时候，形参response表示的是 URL对应的响应数据封装Response对象的引用
        print("---------->", response)
        print("----------1>", response.url)
        print("----------2>", response.headers)  # 在响应头中可以提取cookie
        print("----------3>", response.body)  # 在响应体中可以提取数据内容
        print("----------4>", response.status)
